Болестта й отне гласа. AI създаде реплика, която носи в телефона си
ПРОВИДЪНС, АР (АП) — Гласът, който Алексис „ Лекси “ Богън имаше преди предишното лято, беше великолепен.
Тя обичаше да пее Тейлър Суифт и Зак Брайън балади в колата. Тя се смееше от самото начало – даже до момента в който събираше неприятно държащи се деца в предучилищна възраст или обсъждаше политика с другари над огнище в задния двор. В гимназията тя беше сопран в припева.
След това този глас изчезна.
Лекарите през август отстраниха животозастрашаващ израстък, затънал в задната част на мозъка ѝ. Когато дихателната тръба излезе месец по-късно, Боган имаше проблеми с преглъщането и се напрегна да каже „ здрасти “ на родителите си. Месеци рехабилитация помогнаха за възобновяване й, само че говорът й към момента е повреден. Приятели, непознати и членове на личното й семейство се борят да схванат какво се пробва да им каже.
През април 21-годишното момиче си върна остарелия глас. Не същинският, а гласов клонинг, генериран от изкуствен интелект, който тя може да извика от телефонно приложение. Обучен на 15-секундна времева капсула на нейния тийнейджърски глас — произхождащ от демонстрационно видео за готвене, което е записала за план в гимназията — нейният синтетичен, само че удивително действително звучащ AI глас в този момент може да каже съвсем всичко, което пожелае.
Тя вкарва няколко думи или фрази в телефона си и приложението неотложно ги прочита на глас.
„ Здравейте, мога ли да получа грандиозно еспресо със студена кафява захар и овесено мляко “, сподели гласът на Боган с изкуствен интелект, до момента в който тя държеше телефона през прозореца на колата си в Starbucks drive-thru.
Експерти предизвестиха, че бързо подобряващата се технология за клониране на глас посредством изкуствен интелект може да разшири телефонните измами, да попречи на демократичните избори и да наруши достолепието на хора – живи или мъртви – които в никакъв случай не са се съгласили гласът им да бъде пресъздаден, с цел да споделят неща, които в никакъв случай не са говорили.
Използва се за генериране на дълбоки подправени автоматизирани позвънявания до гласоподаватели в Ню Хемпшир, имитиращи президента Джо Байдън. В Мериленд управляващите неотдавна упрекнаха състезателен шеф на гимназия в потребление на AI за генериране на подправен аудио клип на шефа на учебното заведение, който прави расистки забележки.
Но Богън и екип от лекари от болничната група Lifespan на Роуд Айлънд имат вяра, че са разкрили приложение, което оправдава рисковете. Богън е един от първите хора – единственият с нейното положение – който е съумял да пресъздаде загубен глас с новата Voice Engine на OpenAI. Някои други снабдители на AI, като започващата компания ElevenLabs, са тествали сходна технология за хора с говорни усложнения и загуба - в това число юрист, който в този момент употребява своя гласов клонинг в правосъдната зала.
„ Надяваме се, че Лекси е пионер, защото технологията се развива “, сподели доктор Рохайд Али, ординатор по неврохирургия в здравното учебно заведение на университета Браун и болница Роуд Айлънд. Милиони хора с инвалидизиращи инсулти, рак на гърлото или неврогенеративни болести могат да се възползват, сподели той.
„ Трябва да сме наясно с рисковете, само че не можем да забравяме за пациента и общественото богатство “, сподели Д-р Фатима Мирза, различен резидент, работещ върху водача. „ Можем да помогнем на Лекси да върне същинския й глас и тя може да приказва с думи, които са най-верни за самата нея. “
Мирза и Али, които са женени, привлякоха вниманието на ChatGPT- производител OpenAI заради техния предходен проучвателен план в Lifespan, употребяващ AI chatbot за опростяване на формулярите за здравно единодушие за пациенти. Компанията от Сан Франциско протегна ръка, до момента в който беше на лов по-рано тази година за обещаващи медицински приложения за своя нов гласов генератор с изкуствен интелект.
Боган към момента постепенно се възстановяваше от интервенцията. Заболяването стартира предишното лято с главоболие, замъглено зрение и увиснало лице, тревожат лекарите в детската болница Хасбро в Провидънс. Те откриха съдов израстък с размерите на топка за голф, притискащ мозъчния й дънер и впримчен в кръвоносни съдове и черепни нерви.
„ Беше борба да направляваме кървенето и да извадим тумора, “ сподели детският неврохирург доктор Константина Свокос.
10-часовата дълготрайност на интервенцията, съчетана с местоположението и тежестта на тумора, повреди мускулите на езика и гласните струни на Боган, възпрепятствайки способността й да се храни и приказва, сподели Свокос.
„ Почти като че ли част от самоличността ми беше взета, когато изгубих гласа си “, сподели Богън.
Тръбата за хранене излезе тази година. Логопедичната терапия продължава, позволявайки й да приказва разбираемо в тиха стая, само че без никакви признаци тя ще възвърне цялостната изясненост на естествения си глас.
„ В един миг започнах да не помня по какъв начин звуча, “, сподели Богън. „ Толкова привикнах с метода, по който звуча в този момент. “
Когато телефонът звънеше в дома на фамилията в предградието на Провидънс, Норт Смитфийлд, тя го предаваше на майка си, с цел да одобри позвъняванията й. Чувстваше, че натоварва приятелите си, когато отидат на гръмък ресторант. Баща й, който има загуба на слуха, се бореше да я разбере.
В болничното заведение лекарите търсеха пилотен пациент, който да опитва с технологията на OpenAI.
„ Първият човек, който пристигна на разум на доктор Свокос, беше Лекси “, сподели Али. „ Свързахме се с Лекси, с цел да забележим дали ще се заинтересува, без да знаем какъв ще бъде нейният отговор. Тя искаше да го тества и да види по какъв начин ще работи. “
Боган трябваше да се върне няколко години обратно, с цел да откри подобаващ запис на гласа й, с цел да „ образова “ AI системата по какъв начин приказва. Това беше видео, в което тя обясняваше по какъв начин се прави салата с паста.
Нейните лекари съзнателно подадоха на AI системата единствено 15-секунден клип. Звуците от готвене вършат други елементи от видеото несъвършени. Това беше и всичко, от което се нуждаеше OpenAI — усъвършенстване спрямо предходната технология, изискваща доста по-дълги проби.
Те също знаеха, че извличането на нещо потребно от 15 секунди може да бъде жизненоважно за всички бъдещи пациенти, които нямат диря от гласа си в интернет. Кратко гласово известие, оставено за родственик, може да е задоволително.
Когато го тестваха за първи път, всички бяха зашеметени от качеството на гласовия клонинг. Случайните проблеми - погрешно произнесена дума, изчезнала интонация - бяха най-вече незабележими. През април лекарите оборудваха Bogan със особено направено приложение за телефон, което единствено тя може да употребява.
„ Ставам толкоз прочувствена всякога, когато чуя гласа й “, сподели майка й, Памела Bogan, със сълзи в очите.
„ Мисля, че е ужасно, че мога да имам този тон още веднъж “, добави Лекси Богън, като сподели, че това оказа помощ „ да повиша увереността си ненапълно там, където беше на първо място това да се случи. “
Сега тя употребява приложението към 40 пъти дневно и изпраща противоположна връзка, която се надява да помогне на бъдещи пациенти. Един от първите й опити беше да приказва с децата в детската градина, където работи като асистент-учител. Тя написа „ ха ха ха ха “, очаквайки роботизиран отговор. За нейна изненада това прозвуча като нейния остарял смях.
Тя го е употребила в Target and Marshall’s, с цел да попита къде да откри предмети. Това й оказа помощ да се свърже още веднъж с татко си. И за нея е по-лесно да поръчва бърза храна.
Лекарите на Богън са почнали да клонират гласовете на други искащи пациенти от Роуд Айлънд и се надяват да вкарат технологията в лечебни заведения по целия свят. OpenAI сподели, че работи внимателно в разширението на потреблението на Voice Engine, който към момента не е обществено наличен.
Редица по-малки започващи AI към този момент продават услуги за клониране на глас на развлекателни студия или ги вършат по-широко налични. Повечето снабдители на гласово генериране споделят, че не разрешават представянето под непозната идентичност или злоупотребата, само че се разграничават по метода, по който постановат своите условия за потребление.
„ Искаме да сме сигурни, че всеки, чийто глас се употребява в услугата, се съгласява с настояща база, ” сподели Джеф Харис, водач на OpenAI за продукта. „ Искаме да сме сигурни, че не се употребява в политически подтекст. Така че възприехме метод да бъдем доста лимитирани в това на кого даваме технологията. “
Харис сподели, че идната стъпка на OpenAI включва създаването на предпазен инструмент за „ гласово засвидетелствуване “, тъй че потребителите да могат да копират единствено своите личен глас. Това може да е „ ограничаващо за пациент като Лекси, който е имал неочаквана загуба на говорните си качества “, сподели той. „ Така че считаме, че ще би трябвало да имаме връзки с високо доверие, изключително с доставчиците на медицински услуги, с цел да дадем малко по-безпрепятствен достъп до технологията. “
Боган е впечатлила лекарите си с фокуса си върху мисленето за това по какъв начин технологията може да помогне на други хора с сходни или по-сериозни говорни недостатъци.
„ Част от това, което тя е направила през целия този развой, е да мисли за способи да поправя и промени това “, сподели Мирза. „ Тя беше огромно ентусиазъм за нас. “
Докато към този момент тя би трябвало да си играе с телефона си, с цел да накара гласовия механизъм да приказва, Боган си показва гласов мотор с изкуствен интелект, който усъвършенства по-старите средства за възобновяване на речта – като като роботизирано звучащ електроларинкс или гласова протеза - при обединение с човешкото тяло или превод на думи в действително време.
Тя не е толкоз сигурна какво ще се случи, когато порасне и нейният AI глас продължава да звучи като тийнейджърка. Може би технологията може да „ състари “ нейния AI глас, сподели тя.
Засега, „ макар че нямам гласа си изцяло възобновен, имам нещо, което ми оказва помощ да намеря гласа си още веднъж “, тя сподели.
___
Associated Press и OpenAI имат лицензионно и софтуерно съглашение, което разрешава на OpenAI достъп до част от текстовите архиви на AP.